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摘 要 相对 于 横断 研究 ,追踪 研究 中 更 有 可 能 同时 存在 多 种 内 生性 问题 来 源 。 双 变量 追踪 研究 在 心理 学 因 
果 分 析 中 发 挥 了 重要 的 作用 ,然而 其 中 的 内 生性 问题 却 未 得 到 应 有 的 关注 ,， 这 可 能 会 影响 推论 的 准确 性 ,追踪 
研究 中 内 生性 问题 的 来 源 视 乎 模型 而 定 ， 主 要 包括 遗漏 变量 、 变 量 选择 和 样本 选择 、 解 释 变 量 的 测量 误差 、 


动态 面板 和 变量 之 间 的 相互 关系 。 本 文 以 代表 性 追踪 模型 CLPM 为 人 


， 展 示 了 内 生性 问题 的 影响 ,讨论 了 在 


原 模型 中 运用 工具 变量 来 建 模 以 应 对 内 生性 问题 的 可 行 性 ,目的 是 使 心理 学 研究 者 能 够 关注 追踪 研究 中 的 内 


生性 问题 , 更 好 地 运用 追踪 模型 进行 因果 分 析 。 


关键 词 ”内 生性 问题 , 追踪 研究 ,交叉 滞后 面板 模型 ， 工 具 变量 


分 类 号 B841 
1 引言 : 


在 心理 学 等 社会 科学 研究 领域 ， 建 立 和 检验 
量 之 间 的 因果 关系 许多 时 候 依赖 于 观测 数据 ， 
这 些 数 据 来 源 于 真实 世界 中 实施 的 观察 性 研究 。 
有 不 少 研 究 注意 到 ， 基 于 观测 数据 的 回归 分 析 
可 能 会 受到 内 生性 问题 (endogeneity) 的 困扰 。 内 生 
性 问题 是 指 在 回归 模型 中 解释 变量 和 误差 项 之 间 
存在 相关 关系 ,这 违背 了 回归 模型 的 基本 假定 


it 


M 


cu 


会 导致 有 偏差 的 结果 ， 进 而 影响 对 变量 之 间 真 实 
关系 的 判断 (Bascle, 2008; Bollen, 2012; Maydeu- 


Olivares et al., 2020)。 内 生性 问题 几乎 是 所 有 基于 
观测 数据 的 研究 都 无 法 忽视 的 议题 ,然而 ,以 往 
有 关内 生性 问题 的 讨论 通常 集中 于 横断 研究 (如 : 


王 宇 ， 李 海洋 , 2017; Bollen, 2012; Hill et al., 2020; 
Wooldridge, 2010), 目前 仍 未 见 有 在 追踪 人 研究 中 
系统 地 探讨 内 生性 问题 。 

追踪 研究 (也 称 为 纵向 研究 ) 是 一 种 广 受 学 界 
重视 的 探究 变量 之 间 因 果 关 系 的 方法 ,尤其 是 当 
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随机 控制 实验 有 违 伦 理 或 者 难以 实施 的 时 候 ， 基 
于 重复 测量 数据 的 追踪 研究 在 因果 分 析 中 发 挥 了 
重要 的 作用 。 随 着 “大 数据 ?时 代 的 到 来 ,追踪 研究 
越 来 越 受 到 重视 ， 其 较 少 受到 伦理 因素 的 限制 ， 
外 部 效 度 较 好 ， 且 成 本 较 低 可 支持 较 长 的 研究 周 
因此 被 广泛 地 运用 于 心理 发 展 、 行 为 治疗 、 
临床 咨询 、 语 言 认 知 、 管 理 心理 等 各 个 心理 学 领 
域 ( 如 : 能 狼 等 , 2020; Burns et al., 2019; Fang 
et al., 2022; Gates et al., 2020; Tong et al., 2019). 
相对 于 横断 研究 ， 追踪 研究 中 更 难 避 免 内 生性 问 
题 。 值 得 注意 的 是 ,横断 研究 中 内 生性 问题 来 源 
较 少 ， 学 者 们 通常 识别 出 一 种 来 源 ( 即 遗漏 变量 ， 
如 : souk 等 , 2022; KPE, 2017; 张 晓 敏 等 ， 
2022 ) 或 两 种 来 源 ( 即 遗漏 变量 和 双向 因果 ， 如 刘 
立 光 ,2021)。 有 些 内 生性 问题 来 源 是 由 数据 分 析 
模型 的 结构 所 造成 的 ， 例 如 动态 面板 是 由 模型 中 
的 自 回归 路 径 引 起 ， 这 种 结构 常见 于 追踪 模型 ， 
追踪 研究 中 可 以 识别 出 两 种 或 更 多 来 源 的 内 生性 
问题 (如 : 李 适 源 , 刘 爱 玉 , 2022; AHL 等 , 2022; 
Lebenbaum et al., 2021; Lu et al., 2019). 不 同 的 内 
生性 问题 来 源 可 以 累积 (Bascle，2008)， 追 踪 研 究 
中 内 生性 问题 对 模型 参数 估计 的 影响 有 必要 进行 
深入 的 分 析 。 
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尽管 追踪 人 研究 的 实证 运用 日 益 增 多 , 然而 罕 
有 研究 者 意识 到 其 中 内 生性 问题 的 存在 ,尤其 在 
心理 学 领域 的 追踪 研究 中 ， 几 乎 没有 对 内 生性 问 
题 采取 针对 性 的 控制 , 也 缺乏 有 关 的 方法 学 探 
讨 。 已 有 的 追踪 研究 通常 关注 对 一 些 表层 问题 (如 
遗漏 变量 ) 的 统计 控制 ， 而 对 内 生性 问题 这 一 更 本 
质 性 、 更 根源 性 的 问题 尚 缺乏 针对 性 的 探讨 。 本 
文 关注 追踪 研究 中 的 内 生性 问题 ， 拟 厘清 不 同 的 
内 生性 问题 来 源 ， 探 讨 其 影响 并 提出 应 对 策略 。 


2 追踪 研究 中 的 内 生性 问题 


2.1 内 生性 问题 概述 

考虑 一 个 简单 的 回归 模型 ， 包含 一 个 解释 变 
量 x 和 一 个 结果 变量 y, 方程 为 : 

y=a+px+e (1) 

其 中 , a HWRE, BARK, e 为 误差 项 。 结 果 变 
量 是 内 生 的 (endogenous)， 变 量 值 由 模型 内 部 决 
定 ; 解释 变量 通常 都 假设 是 外 生 的 (exogenous)， 
变量 值 由 模型 外 部 决定 。 
回归 模型 和 结构 方程 模型 中 的 一 个 基础 假定 是 
解释 变量 的 外 生性 假定 (exogeneity assumption), BM: 
E(é€) =0, cov(é,x) = 0 (Hill et al., 2020; Wooldridge, 


2010)。 满 足 这 一 假定 时 ,回归 系数 的 最 小 二 乘 估 
计 值 是 最 佳 线 性 无 偏 佑 计 (best linear unbiased 
estimator, BLUE)。 然 而 ， 实 际 中 往往 会 出 现 解释 
变量 和 误差 项 有 相关 的 情况 , 这 违背 了 外 生性 假 
E, 引起 内 生性 问题 ， 所 得 到 的 参数 结果 会 是 有 
虽 的 (Bollen,， 2012; Falkenstrom et al., 2016; Gates 
et al., 2020)。 存 在 内 生性 问题 时 的 解释 变量 被 称 
为 内 生性 解释 变量 。 内 生性 问题 是 基于 观测 数据 
的 实证 研究 难以 避免 的 重要 问题 (陈云 松 ， 范 晓 光 ， 
2010; 王 宇 ， 李 海洋 , 2017). 
2.2 ”内 生性 问题 的 来 源 

观测 数据 的 回归 分 析 中 可 能 存在 多 种 内 生性 
问题 的 来 源 ， 这 些 来 源 也 被 称 为 回归 分 析 的 效 度 
威胁 (threats to the validity) (Maydeu-Olivares et al., 
2020)。 通 常 有 以 下 几 种 来 源 : 遗漏 变量 (omitted 
variable) 、 选 择 (selection)、 解 释 变 量 的 测量 误差 
(measurement error in the predictors)、 相 互 关 系 
(reciprocal relation) 和 动态 面板 (dynamic panel) 等 
(Bollen, 2012; Hill et al., 2020; Wooldridge, 2010). 
虽然 这 些 来 源 的 外 在 表现 形式 各 不 相同 ,但 是 都 
会 导致 一 个 深层 次 的 结果 ， 即 解释 变量 的 内 生性 
问题 。 


i LÒ ! Ww ' : w ' 
i a tog | Dsi 
ý 
& & x > k 和 
a. 遗漏 变量 b. 白 选 择 c. 样本 选择 
Cx 一 二 a 7 
5 
Ea EN a E T 
; bee pee See oe = 
& 
d 解释 变量 的 测量 误差 c. 相互 关系 动态 面板 


图 1 内 生性 问题 的 不 同 来 源 
注 : 虚线 表示 未 被 考虑 进 模型 的 变量 和 效应 ,表示 当 存在 样本 选择 时 能 被 测量 到 的 那 部 分 结果 变量 , L 表示 遗漏 变量 , w 表 


示 能 够 影响 选择 过 程 和 作用 过 程 的 变量 , s 表示 选择 过 程 。 
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量 
是 最 为 常见 的 引起 内 生性 问题 的 一 


变量 ， 当 被 遗漏 的 变量 既 影响 结果 变量 也 影响 解 
释 变 量 时 ， 就 可 能 引起 内 生性 问题 (Bollen，2012; 
Hill et al., 2020)， 如 图 1(a) 所 示 。 遗 漏 变量 其 实 就 
是 因果 关系 的 前 置 变 量 ( 温 忠 脱 , 2017)， 也 称 为 未 
观测 到 的 异 质 性 (unobserved heterogeneity), 未 观 
测 到 的 偏差 (unobserved bias) 或 未 被 测量 的 混淆 变 
量 (unmeasured confounding) (陈云 松 ， 范 晓 光 ， 
2010; 王 宇 ,， 李 海洋 ，2017)， 当 只 有 一 个 解释 变 
量 和 一 个 结果 变量 时 ， 遗漏 变量 也 被 称 为 第 三 变 
量 (third variable)。 
假设 有 遗漏 变量 L， 既 影响 解释 变量 x 也 影响 
结果 变量 y, WA: 
x=a,+OL +e, (2) 
yoa,t+Pxtnl te, (3) 
Hp, a, Mla, RIRE, Bay 对 x 的 回归 系 
数 ，9 入 分别 表示 x 和 yy 对 工 的 回归 系数 ，e! 和 
E, 表示 误差 项 。 由 (2) 解 出 工 并 代入 (3) 可 得 : 
L=(x—Q,.—é)/0 (4) 
y=a,t+ Bxtn(x-a,-€)/0+6, = 
a, —a,/0+(B+7/ O)x + (He, /O+e,) (5) 


TARH, AMRAM e +e, ) 中 的 与 + 有 


相关 ， 所 以 复合 误差 项 与 解释 变量 x 有 相关 ， 即 
存在 内 生性 问题 。 假 设 变 量 之 间 的 真实 关系 如 公 
式 (3) 所 示 , 其 中 x 对 y 的 预测 效应 是 5， 研究 者 
如 果 忽 视 内 生性 问题 , 不 考虑 遗漏 变量 L 的 影响 ， 
直接 对 方程 (1) 进 行 估计 ， 所 得 到 的 回归 系数 
TEI 的 。 


遗漏 变量 所 引起 的 内 生性 问题 在 心理 学 领域 
十 分 常见 ， 例 如 ，Lu 等 (2019) 在 分 析 社 会 信任 和 
幸福 感 之 间 的 关系 时 ， 考 虑 到 很 可 能 会 有 同时 影 
响 社 会 信任 和 幸福 感 的 变量 未 被 测量 或 观测 到 ， 
进而 引起 内 生性 问题 ,因此 使 用 了 工具 变量 方法 
来 降低 内 生性 问题 的 影响 。 
2.2.2 ”选择 

一 些 文献 在 阐述 内 生性 问题 来 源 时 还 会 提 到 
选择 ， 如 自选 择 (selfselection/selection of treatment) 
和 样本 选择 (sample selection/selection into sample) 
(Hill et al., 2020)。 


自选 择 (Shaver，1998) 是 指 解释 变量 不 是 随机 
的 ， 而 是 选择 的 结果 ( 王 宇 ， 李 海洋 ，2017; Hill 
et al., 2020)。 如 果 将 社会 现象 拆 分 为 两 个 过 程 ， 一 
个 过 程 是 解释 变量 (x) 影 响 结果 变量 (y) 的 过 程 ， 另 
一 个 是 选择 解释 变量 的 过 程 (selection process, s), 
若 存 在 一 些 能 够 同时 影响 这 两 个 过 程 的 变量 (w) 
未 被 观测 到 ， 作 为 遗漏 变量 而 进入 两 个 过 程 的 误 
差 项 ,使 得 两 个 误差 项 相互 关联 ， 导 致 第 一 个 过 
程 中 的 x 和 误差 项 有 相关 ， 内 生性 问题 出 现 ， 如 
图 1(b) 所 示 。 有 学 者 指出 ,在 研究 社区 环境 对 个 
体 收 入 的 影响 时 难以 避免 自选 择 所 带 来 的 偏差 ， 
ALAN, 低 学 历 个 体 (w) 往 往 只 能 选择 搬入 低档 社区 
(x), 而 低 学 历 (w) 和 较 低 的 收入 (y) 有 关联 ， 低 学 历 
(w) 这 一 变量 同时 与 解释 变量 和 结果 变量 有 关 ， 如 
被 遗漏 就 可 能 引起 内 生性 问题 ( 解 垩 ， 宋 颜 群 ， 
2021)。 
样本 选择 (Heckman，1976，1979) 是 指 样本 不 
是 随机 的 ， 观 测 仅仅 局 限于 某 个 有 限 的 非 随机 样 
本 中 ,这 可 能 由 数据 收集 程序 造成 ,也 可 能 由 所 
研究 的 某 种 社会 现象 本 身 所 固有 的 特质 引起 。 如 
图 1(c) 所 示 , 在 考虑 x 对 上 y 的 影响 时 ,结果 变量 y 
的 观测 值 受到 选择 过 程 (9) 的 影响 ,而 s 受到 一 些 
其 他 因素 w 的 影响 , 未 被 观测 到 的 因素 w 会 进入 
方程 误差 项 e, 而 x 是 w 的 子 集 ( 即 w 中 至 少 包含 
一 个 变量 不 属于 x), 因此 x 和 s, 有 相关 ， 出现 内 生 
性 问题 (Hill et al., 2020)。 例 如 ,在 研究 农村 教育 
收益 时 会 关注 教育 年 限 对 年 收入 的 影响 ,然而 受 
教育 程度 高 的 农村 居民 往往 会 突破 户籍 限制 ， 导 
致 通常 的 农村 调查 样本 是 一 个 高 度 选择 性 样本 ， 
往往 仅 包含 潜在 收入 较 低 或 教育 水 平 较 低 者 ， 如 
果 使 用 这 一 部 分 样本 进行 估计 ， 将 会 低估 教育 对 
农村 居民 收入 的 作用 ( 赵 西 亮 , 2017)。 

自选 择 和 样本 选择 被 统称 为 选择 。 自 选择 偏 
差 可 以 看 作 是 混淆 了 感 兴趣 的 参数 和 个 体 选择 特 
定 解释 变量 的 概率 函数 的 参数 ,样本 选择 可 以 看 
作 是 混淆 了 感 兴趣 的 参数 和 决定 个 体 是 否 进 入 非 
随机 样本 的 概率 函数 的 参数 (Heckman, 1979)。 当 
解释 变量 对 结果 变量 的 作用 过 程 以 及 选择 解释 变 
量 或 选择 被 试 的 过 程 同 时 受到 一 个 或 多 个 遗漏 变 
量 影响 时 ， 这 两 个 过 程 的 误差 项 就 会 存在 相关 ， 
导致 第 一 个 过 程 中 的 解释 变量 和 误差 项 相关 ， 出 
现 内 生性 问题 。 从 这 个 角度 看 ,选择 可 以 看 作 是 
特殊 的 遗漏 变量 (陈云 松 , 范 晓 光 , 2010; Heckman, 
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1976). 的 当前 水 平 往往 受到 其 本 身上 一 时 间 点 水 平 的 影 


2.2.3 ”解释 变量 的 测量 误差 

如 果 解 释 变量 存在 测量 误差 ,按照 因子 分 析 
的 思路 , 解释 变量 就 会 受到 一 个 潜 变 量 ( 因 子 ) 的 
影响 ， 因 而 原本 的 解释 变量 成 了 内 生性 变量 。 换 
一 个 角度 看 ， 这 相当 于 模型 中 遗漏 了 一 个 潜 变 量 ， 
该 潜 变 量 既 会 影响 解释 变量 也 会 影响 结果 变量 
(Bollen, 2012)， 如 图 1(d) 所 示 。 然 而 , 测量 误差 造 
成 的 问题 , 实质 上 是 信 度 高 低 的 问题 ( 温 忠 腾 等 ， 
2022)。 通 过 多 个 题目 指标 合成 总 分 进行 分 析 , 合 
成 信 度 通常 都 比较 高 ， 因 而 使 用 合成 分 数 进行 显 
变量 建 模 时 并 不 总 要 考虑 由 测量 误差 引起 的 内 生 
性 问题 。 当 测量 信和 度 低 时 ， 可 能 存在 测量 误差 引 
起 的 内 生性 问题 ,此 时 可 以 通过 工具 变量 方法 处 
理 (Hill et al., 2020)。 
2.2.4 相互 关系 

相互 关系 是 指 解释 变量 与 结果 变量 相互 预测 
的 情况 ,也 称 为 反馈 因果 (feedback causation), HX 
立 性 /双向 因果 (simultaneity) 或 反 向 因果 (reverse 
causality) ( 王 宇 ， 李 海洋 , 2017; Bollen, 2012; Hill 
et al., 2020)。 值 得 注意 的 是 ， 有 学 者 认为 基于 观测 
数据 建立 的 时 序 关 系 本 质 上 还 是 相关 性 的 (Usami 
et al., 2019)， 因 果 推 论 往往 还 是 需要 有 理论 .文献 
或 经 验 常识 的 支持 ( 温 忠 刨 ，2017)， 理 论 研究 者 们 
在 使 用 观测 数据 探究 变量 间 相 互 预测 的 关系 时 更 
多 使 用 相互 关系 (reciprocal relation) 而 非 因 果 关 系 
(causality) (如 Usami et al., 2019; Wiedermann & von 
Eye, 2020)， 因 此 本 文 也 采用 相互 关系 这 一 表述 。 

如 图 1(e) 所 示 ， 当 两 个 变量 之 间 存 在 相互 关 
系 时 , x 影响 y 的 方程 中 的 误差 项 就 会 和 y 影响 x 
的 方程 中 的 误差 项 存在 关联 ， 进 而 导致 第 一 个 方 
程 中 的 解释 变量 和 误差 项 有 相关 ， 出现 内 生性 问 
题 。 变 量 之 间 的 相互 关系 在 心理 学 领域 中 十 分 常 
见 ， 例 如 ，Lebenbaum 等 (2021) 在 研究 社会 资本 与 
心理 健康 之 间 的 影响 效应 时 考虑 了 二 者 之 间 可 能 
存在 相互 关系 ,这 很 可 能 引起 内 生性 问题 ,因此 
他 们 采用 工具 变量 方法 来 处 理 内 生性 问题 并 获得 
可 靠 的 结 
2.2.5 ”动态 面板 

动态 面板 (也 称 为 自 回 归 ，auto-regression) 是 
指使 用 结果 变量 的 先前 取 值 作为 解释 变量 (Patel 
& Cooper，2014), 动态 面板 所 引起 的 误差 也 被 称 
为 自 回归 误差 (Bollen, 2012)。 在 追踪 研究 中 ， 变 量 


响 ， 因 此 方程 中 往往 会 将 结果 变量 的 先前 水 平 作 
为 一 个 解释 变量 纳入 ， 以 控制 一 个 潜在 的 遗漏 变 
量 的 影响 (Cole & Maxwell, 2003), 但 这 同时 也 可 
能 引起 内 生性 问题 。 如 图 1(f) 所 示 ， 由 于 结果 变量 
的 当前 误差 项 & 与 上 一 时 间 点 的 误差 项 6 1 有 可 
能 是 相关 的 ， 而 上 一 时 间 点 的 误差 项 gy 与 上 一 
时 间 点 的 结果 变量 y, | 相关 ， 这 样 ， 以 yy, 为 结果 变 
量 的 方程 中 误差 项 se* 有 可 能 与 其 中 一 个 解释 变量 
ye!1 有 相关 ,出现 内 生性 问题 (Bollen, 2012). 

可 以 看 出 ,内 生性 问题 可 能 由 多 种 来 源 引 起 ， 
下 面 将 针对 追踪 研究 情境 进行 详细 论述 。 
2.3 ”追踪 研究 中 的 内 生性 问题 

目前 存在 多 种 追踪 模型 ， 例 如 潜在 曲线 模型 
(Latent Curve Model, LCM), 交叉 沾 后 面板 模型 
(Cross-Lagged Panel Model, CLPM), BAHL#HE 2 
MQ hit Jar TA Be HE AY (Random Intercept CLPM, RI- 
CLPM) 和 潜在 变化 分 数 模型 (Latent Change Score 
Model, LCS) 等 。 其 中 , CLPM、RI-CLPM 和 LCS 
都 属于 交叉 滞后 追踪 模型 ， 这 一 类 模型 是 公认 的 
探究 变量 之 间 动 态 关 系 的 强 有 力 的 方法 ， 也 是 目 
前 运用 最 广泛 的 追踪 研究 技术 之 一 (如 : Tr RR 
等 ， 印 刷 中 ; 熊 猛 等 ,2020; Burns et al., 2019; 
Fang et al., 2022; Tong et al., 2019)。 

AE EG TG Ay Gk HE A, SE Yi ee Ee 
尤其 适合 分 析 生 命 历程 中 两 个 变量 之 间 的 动态 相 
HRA, 这 是 心理 学 研究 领域 中 广 受 关 注 的 主题 
(Hamaker et al., 2015; Usami et al.，2019)， 同 时 ， 
交叉 滞后 追踪 模型 的 结构 也 比 其 他 追踪 模型 要 复 
杂 ( 见 图 2)， 可 能 同时 面临 多 种 不 同 的 内 生性 问题 
来 源 。 这 里 将 针对 交叉 滞后 追踪 模型 的 基础 形式 
CLPM 来 分 析 内 生性 问题 ,所 得 到 的 结果 能 够 涵 
盖 其 它 结构 较 为 简单 的 追踪 模型 ,包括 并 不 限于 
LCM, 

在 CLPM 中 ,对 于 变量 x 和 y, 被 试 i (i= 1, ..., 
入 在 时 间 点 1 (t= 1, .… 刀 的 观测 值 为 和 yi : 

Xin = Mar + (6) 

Yu = Hye + Vin (7) 
HP, Has Ha 表示 组 均值 。 首 先 对 观测 变量 进 
行 中 心 化 处 理 ,提取 出 时 间 特 定 的 偏 移 量 x o Vio 
以 表示 每 个 被 试 在 不 同 变量 上 随时 间 的 变动 ， 

Xi = Xi Hx (8) 

pi = Vin Hy (9) 
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图 2 CLPM 模型 图 (3 个 时 间 点 ) 
注 :两 个 变量 为 x 和 y, 下 标 表示 测量 时 间 点 ,Pp 为 自 回归 效 


DE, y 为 交叉 滞后 效应 , d 为 残 差 。 


然后 构建 交叉 清 后 方程 : 
= Bet) + VaVe) tdi (10) 
Vin = By Via) + yeaa) + dy (11) 
EH, By. By 为 自 回归 系数 , 反映 了 一 个 变量 
的 先前 水 平 对 该 变量 当前 水 平 的 作用 ，y 、yy 为 
交叉 滞后 系数 ,体现 了 一 个 变量 的 先前 水 平 对 另 
一 变量 当前 水 平 的 作用 ，qdw 5 yy 为 误差 项 。 
首先 ，CLPM 难以 避免 遗漏 变量 所 人 带 来 的 内 
生性 问题 。 假 设 有 遗漏 变量 万 ， 既 影响 x 也 影响 
坊 。 如 果 遗 漏 变量 因为 难以 施 测 或 未 被 考虑 到 而 
无 法 获得 其 观测 值 ， 可 能 会 被 包含 在 误差 项 里 
(Bollen, 2012)， 则 公式 (10) 和 (11) 可 改写 为 : 
Xy = Buea) HVV + Grn + kn) (12) 


Vin = By Viet tr ny) + Gir + yk) (13) 
以 yh 为 结果 变量 的 方程 为 例 由 于 遗漏 变量 L 
无 法 作为 解释 变量 进入 方程 ,， 因而 被 包含 进 误差 
项 ,使 得 原来 的 误差 项 dv 变 成 复合 误差 项 
(dtm), BA L, 与 有 相关 ，x 和 其 本 身 
的 历史 变量 xh, 有 相关 ,， 则 复合 误差 项 (do + 
MaLa ) 可 能 与 xy) 有 相关 , 产生 内 生性 问题 。 在 
运用 CLPM 的 研究 中 也 有 可 能 会 面临 由 样本 选择 
或 自选 择 所 引起 的 内 生性 问题 考虑 到 选择 可 以 
看 作 是 遗漏 变量 的 特殊 情形 ,不 再 单独 论述 。 

其 次 ，CLPM 通常 都 是 基于 合成 分 数 来 建 模 
的 ， 当 量 表 信 度 较 高 的 时 候 可 以 不 考虑 由 测量 误 


差 所 引起 的 内 生性 问题 。 

再 次 , CLPM 中 自 回归 效应 的 存在 可 能 会 导 
致 由 动态 面板 引起 的 内 生性 问题 。 考 虑 y 为 结果 
变量 的 回归 方程 ,由 公式 (11) 可 以 看 出 ，y 的 其 
中 一 个 解释 变量 是 其 本 身 在 (上 -1 时刻 的 历史 变量 
Yin» BA view 和 wo 有 相关 ,由 于 回归 方 
程 的 误差 是 一 直 存 在 的 ， 得 到 dv 和 ww 可 能 
有 相关 (Bollen，2012), 则 yi A iv 很 可 能 有 相 
关 , 产生 内 生性 问题 。 

最 后 ，CLPM 对 变量 之 间 的 相互 关系 进行 建 
模 ， 可 能 面临 由 相互 关系 引起 的 内 生性 问题 。 考 
KE y, 为 结果 变量 的 方程 , 由 于 dy, 和 dy, 有 相关 ， 
而 da Al x, AAI, x, 和 其 本 身 的 历史 变量 
Xia) 有 相关 ， 则 ww 和 xb 可 能 有 相关 ; 同 理 ， 
在 六 为 结果 变量 的 方程 中 ，dw 和 vig) 可 能 有 
相关 ， 上 述 两 种 情形 任 一 种 成 立 都 有 可 能 引起 内 
生性 问题 。 当 两 种 情形 都 成 立时 ,变量 之 间 存 在 
相互 关系 ; 仅 有 一 种 情形 成 立时 ， 变 量 之 间 是 单 
向 关系 ,可 看 作 相 互 关系 的 特例 。 

综 上 , 在 以 CLPM 为 代表 的 追踪 模型 中 可 能 
存在 以 下 几 种 内 生性 问题 来 源 ， 遗漏 变量 , 动态 
面板 和 相互 关系 。 其 中 ,遗漏 变量 是 横断 研究 和 
追踪 人 研究 中 都 常见 的 ， 几乎 所 有 的 追踪 模型 (如 
LCM、CLPM 等 ) 都 可 能 碰 到 遗漏 变量 引起 的 内 生 
性 问题 ; 动态 面板 则 是 由 追踪 模型 的 结构 所 决定 
AY, 在 包含 自 回 归 路 径 的 追踪 模型 (如 RI-CLPM.、 
LCS) 中 都 会 存在 动态 面板 引起 的 内 生性 问题 ; 在 
变量 之 间 存 在 相互 作用 的 背景 下 开展 的 研究 中 往 
往 会 存在 相互 关系 引起 的 内 生性 问题 。 在 实际 研 
究 情 境 中 ,可 以 采用 不 同 的 追踪 模型 ， 再 结合 理论 
背景 和 模型 结构 来 识别 不 同 的 内 生性 问题 来 源 。 
2.4 内 生性 问题 的 影响 

内 生性 问题 会 导致 常用 的 回归 分 析 方 法 得 到 
有 偏差 、 不 一 致 的 结果 ， 进 而 影响 对 变量 之 间 真 
实 关系 的 判断 (Bollen, 2012)。, 重 要 的 是 ， 内 生性 问 
题 所 导致 的 偏差 无 法 被 预测 ,而且 参数 被 高 佑 的 
可 能 性 和 被 低估 的 可 能 性 是 一 样 的 Bollen，2012; 
Hill et al., 2020)。 在 某 些 情况 下 ， 内 生性 问题 会 导 
致 研究 者 错误 地 得 出 原本 并 不 存在 的 效应 ,而 有 
些 情况 下 会 令 研 究 者 无 法 发 现 原本 存在 的 效应 
(Certo et al., 2016)。 例 如 , Lu 等 (2019) 的 横 截 面 研 
究 中 发 现在 修正 内 生性 问题 之 后 ,社会 信任 对 幸 
福 感 的 预测 效应 由 原本 的 0.198 (p < 0.01) 提 升 至 
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0.505 (p < 0.001)。 

已 有 的 研究 往往 是 围绕 横 截 面 情境 中 的 内 生 
性 问题 展开 (如 : 陈云 松 ， 范 晓 光 , 2010; EF, 4 
海洋 , 2017; 赵 西 亮 , 2017; Bollen, 2012; Hill et al., 
2020),， 目前 仍 未 见 到 在 追踪 情境 下 对 内 生性 问题 
的 系统 探讨 。 和 追踪 人 研究 中 可 能 面临 哪些 内 生性 问 
题 来 源 ? 内 生性 问题 对 模型 参数 估计 的 影响 是 怎 
样 的 ?此 时 何 种 应 对 方法 能 有 效应 对 内 生性 问 


立 自然 实验 的 条 件 ( 王 宇 ， 李 海洋 , 2017). 其 中 ,IV 
方法 的 适用 性 较 强 ,能 应 对 多 种 内 生性 问题 来 源 ， 
是 实证 中 最 常用 的 技术 (Bollen, 2012; Hill et al., 
2020; Maydeu-Olivares et al., 2020)。 

IV 是 解释 变量 的 解释 变量 。IV 与 通常 所 说 的 
空 制 变量 不 是 一 回 事 控制 变量 是 指 除 了 解释 变 
量 以 外 的 所 有 影响 实验 结果 的 变量 , 通常 会 对 实 
验 的 遗漏 变量 进行 控制 ，IV 则 是 纳入 估计 模型 中 


党 


题 ? 这 都 是 有 待 探究 的 问题 。 
3 内 生性 问题 的 应 对 方法 


3.1 ”实验 或 准 实验 控制 

内 生性 问题 可 以 通过 研究 设计 、 实 验 或 准 实 
验 等 方式 来 进行 校正 (Hill et al., 2020)。 
针对 遗漏 变量 引起 的 内 生性 问题 ， 可 以 识别 
出 遗漏 变量 并 将 其 纳入 模型 中 控制 ， 也 可 以 在 模 
型 中 纳入 协 变量 来 代表 可 能 的 遗漏 变量 (Usami 
et al.，2019)， 在 实证 研究 中 ,学 者 们 往往 对 人 口 
学 变量 进行 控制 (如 : BEA 等 ,2020)。 然而 , 要 确 
定 合适 的 协 变量 并 获得 其 有 效 观 测 值 ， 对 追踪 研 
究 的 设计 和 实施 有 较 高 的 要 求 ， 如 未 能 纳入 对 研 
究 变 量 有 实质 性 影响 的 协 变量 ， 可 能 无 法 从 根本 
上 解决 遗漏 变量 所 引起 的 内 生性 问题 。 对 于 选择 
引起 的 内 生性 问题 ， 可 以 采用 准 实验 的 方式 进行 
控制 ， 例 如 为 了 研究 社区 邻里 效应 ， 有 研究 者 在 
城市 里 向 随机 选择 的 家 庭 提 供 住 房 券 ,以 获得 合 
理 的 实验 组 和 对 照 组 (Aliprantis & Richter, 2020). 

当 实 验 控制 方法 由 于 成 本 等 原因 无 法 实现 或 
较 难 实施 时 ， 可 以 采用 统计 方法 进行 修正 。 
3.2 ”统计 控制 

目前 存在 一 系列 能 够 对 内 生性 问题 进行 修正 
的 统计 方法 ， 例 如 工具 变量 方法 (instrumental 
variables method, IV method), Heckman 两 阶段 模 
型 ， 双重 差 分 分 析 (difference in differences analysis), 
倾向 性 得 分 匹配 (propensity score matching) 和 
定 效应 模型 (fixed effect model) 等 ( 王 宇 ， 李 海洋 ， 
2017)。IV 方法 是 通过 IV 来 提取 出 解释 变量 的 外 
生 部 分 进行 估计 ; Heckman 两 阶段 模型 主要 用 于 
修正 选择 偏差 . 第 一 阶段 为 概率 模型 估计 自选 
择 偏 差 变 量 发 生 的 可 能 性 , 得 到 比率 加 入 到 第 二 
阶段 模型 中 ; 双重 差分 分 析 是 使 用 两 次 差分 来 获 
得 样本 在 实验 处 理 前 后 的 差异 ; 倾向 性 匹配 得 分 
则 是 采用 倾向 得 分 (发 生 概 率 ) 进 行 匹配 以 重新 建 


的 辅助 性 变量 ,能 处 理 多 种 原因 所 引起 的 内 生性 
问题 , 包括 且 不 限于 遗漏 变量 。 合 格 的 IV 需要 满 
足 两 个 条 件 : 中 关联 性 ，IV 与 内 生性 解释 变量 有 
强 相 关 ， 即 cov(x,z)#0, HHH cov 表示 协 方差 
(covariance); QSMEVE, IV 与 误差 项 不 相关 ， 即 
cov(é,z)= 0 (Bollen, 2012; Hill et al., 2020; 
Maydeu-Olivares et al., 2020). IV 模型 (在 原 模型 
中 纳入 IV 之 后 的 模型 ) 可 以 运用 两 阶段 最 小 二 乘 
回归 法 (two-stage least-squares regression, 2SLS) 
来 估计 : 第 一 阶段 , 将 原本 的 内 生性 解释 变量 作 
KASE, 建立 解释 变量 对 IV 的 回归 ， 获 得 解释 
变量 的 拟 合 值 ; 第 二 阶段 ,建立 结果 变量 对 解释 
变量 拟 合 值 的 回归 ， 此 时 使 用 解释 变量 的 外 生 部 
分 ( 即 与 误差 项 不 相关 的 部 分 ) 来 估计 ， 实现 了 对 
内 生性 问题 的 控制 ， 可 获得 反映 变量 间 真 实 关 系 
的 系数 (Bollen, 2012; Hill et al., 2020), IV 模型 也 
可 以 采用 极 大 似 然 估计 (maximum likelihood, ML) 
和 广义 矩 估 计 (generalized method of moments, 
GMM) 等 方法 估计 。Maydeu-Olivares 等 (2020) 发 
BL ISLS 仅仅 是 ML 的 一 个 多 阶段 形式 , 在 没有 模 
型 误 设 的 情况 下 所 得 到 的 参数 结果 到 小 数 点 的 后 
两 位 都 是 一 致 的 。 特 别 地 , ML 是 心理 学 有 关 领 域 
的 学 者 们 更 为 熟悉 的 一 种 参数 估计 方法 。 

IV 的 质量 评估 通常 包含 弱 IV 检验 (weak IV 
check) 和 过 识别 检验 (overidentification test). #9 IV 
检验 是 针对 关联 性 前 提 ， 当 模型 中 包含 一 个 IV 时 ， 
可 以 对 解释 变量 和 IV 之 间 的 相关 系数 或 回归 系 
数 进行 显著 性 检验 ， 当 模型 中 包含 多 个 IV 时 , 存 
在 多 种 检验 方法 ,可 以 针对 每 一 个 内 生性 解释 变 
量 计算 一 个 偏 R 来 判断 IV 是 否 满足 关联 性 
(Bollen, 2012; Shea, 1997), 也 可 以 通过 计算 IV 模 
型 的 已 统计 量 或 比较 不 同 TV 模型 中 Tcp 统 计量 的 
特征 值 来 检验 (Maydeu-Olivares et al.，2020)， 同 
时 ，Maydeu-Olivares 等 (2020) 建 议 可 以 使 用 髓 套 
模型 比较 的 方法 ， 即 通过 似 然 比 检验 来 比较 IV 模 
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型 和 零 模型 ( 即 IV 对 解释 变量 的 回归 系数 设置 为 可 以 看 出 ， 对 于 追踪 研究 中 的 内 生性 问题 ， 


零 )， 进 而 判断 IV 是 否 满足 关联 性 要 求 。 过 识别 检 IV 方法 , 尤其 是 MIV 是 一 种 十 分 有 前 景 的 处 理 

验 的 原 假设 是 所 有 IV 都 和 方程 误差 项 不 相关 ， 适 方法 , 但 目前 仍 未 见 有 将 MIV 运用 于 追踪 研究 

用 于 IV 个 数 多 于 解释 变量 个 数 时 (Bollen，2012)， 中 的 尝试 , 因此， 有 必要 探究 在 追踪 模型 中 纳 人 
般 通 过 Sargan 检验 进行 ， 即 构建 解释 变量 对 所 MIIV 的 建 模 方式 , 分析 其 可 行 性 和 有 效 性 ， 为 实 

A IV 的 回归 , 使 用 回归 误差 项 和 IV 的 取 值 构造 证 研究 者 提供 切实 可 行 的 指导 。 

一 个 服从 卡 方 分 布 的 统计 量 Ts 并 进行 判断 ， 此 外 ， 二 

Maydeu-Olivares 等 (2020) 指 出 , 在 SEM 框架 下 运 4 实证 示例 


用 ML 方法 时 ， 对 于 IV 和 误差 项 不 相关 这 一 假设 ， 下 面 将 基于 一 个 实证 案例 , 来 展示 内 生性 问 
可 以 通过 模型 拟 合 的 卡 方 检验 进行 验证 ， 如 果 模 题 对 追踪 模型 参数 估计 的 影响 ,并 分 析 在 模型 中 
型 拟 合 得 较 好 就 不 会 拒绝 该 假设 。 运用 MIV 的 效能 。 此 处 选择 广 受 关注 的 代表 性 
关于 实证 中 应 当 采 用 的 IV 的 个 数 ， 目 前 尚未 有 追踪 模型 CLPM 进行 演示 。 
一 致 的 结论 。 有 学 者 认为 IV 的 个 数 至 少 要 和 内 生 数据 来 源 于 中 国 健康 与 营养 调查 (China 
性 解释 变量 的 个 数 一 样 多 (Bollen, 2012; Falkenstrém Health and Nutrition Survey, CHNS) 的 开放 数据 库 ， 
ha et al.，2016), 也 有 学 者 认为 应 当 比 内 生性 解释 变 拟 探究 主观 幸福 感 和 身体 质量 指数 (Body Mass 
量 多 一 个 (Maydeu-Olivares et al., 2020)。 Index，BMJ) 之 间 的 纵向 关系 ， 主 观 幸 福 感 由 一 道 
; 在 社会 科学 领域 , IV 的 常见 类 型 有 两 种 ， 分 问卷 题目 测量 ， 其 要 求 被 试 按照 1( 非 常 好 ) 到 5( 非 
别 是 辅助 的 IV (auxiliary IV，AIV) 和 模型 隐 含 的 常 差 ) 的 等 级 评价 自己 当前 的 生活 ， 反 向 编码 之 后 
IV (model implied IV, MIIV), ATV 是 从 外 部 引入 模 得 分 越 高 表明 幸福 感 越 高 ， BMI 由 被 试 自我 报告 


型 中 的 , MIIV 则 是 来 源 于 模型 内 部 (Bollen, 2018; 或 他 人 代 答 的 身高 和 体重 数据 来 计算 : BMI= 体 
Hill et al., 2020; Semadeni et al., 2014)。 有 效 的 重 (千克 )/ 身 高 ( 米 ) 的 平方 。 选 取 三 个 时 间 点 (T1 = 
AIV 不 易 找到 ,构建 和 选择 AIV 都 需要 十 分 严密 2009, T2 = 2011, T3 = 2015), 删除 异常 值 并 保留 
的 逻辑 ， 否 则 其 有 效 性 容易 受到 质疑 (陈云 松 ， 那些 在 三 个 时 间 点 都 有 记录 的 被 试 , 最 终 获得 来 
2012)。 相 比 之 下 , MIV 具有 一 些 不 可 替代 的 优点 ， 自 992 名 被 试 的 有 效 数 据 ， 在 初始 时 间 点 上 被 试 
其 来 源 于 模型 内 部 ,稳定 性 较 高 ， 且 模型 的 结构 平均 年 龄 为 51 岁 (范围 为 18~88 岁 ), 57% 为 女性 。 


表明 了 模型 中 哪些 变量 满足 成 为 IV 的 条 件 ， 可 以 变量 在 不 同时 间 点 上 的 描述 性 统计 和 相关 关 
不 用 费力 地 辨别 MITV。 学 者 们 提出 , 解释 变量 的 系 见 表 1。 

历史 取 值 (简称 历史 变量 ) 往 往 是 适当 的 IV, 历史 首先 , 需要 识别 研究 中 的 内 生性 问题 来 源 。 
变量 和 当前 的 解释 变量 有 相关 ， 而 几乎 不 可 能 与 其 一 ， 遗 漏 变量 ， 可 能 会 有 变量 同时 影响 主观 幸 


当前 的 误差 项 有 相关 ， 即 其 满足 IV 的 要 求 (Gates 福 感 和 BMI, 例如 人 口 学 变量 、 家 庭 社会 经 济 地 
et al., 2020; Hill et al., 2020), 追踪 数据 的 重复 测 位 、 文 化 背景 等 (Fang et al., 2022; Kazuma, 2021), 
量 结构 为 使 用 历史 变量 作为 IV 提供 了 机 会 在 一 次 分 析 中 无 法 穷尽 所 有 可 能 的 变量 进行 控制 ， 
(Streeter et al., 2017)， 此 时 历史 变量 属于 MIIV。 因此 无 法 肯定 地 排除 遗漏 变量 的 存在 ; 其 二 , 动 


R1 变量 的 描述 性 统计 和 相关 关系 


变量 M (SD) 幸福 感 (T1) ”幸福 感 (T2) ”幸福 感 (T3) BMI (T1) BMI (T2) BMI (T3) 
幸福 感 (T1) 3.51 (0.83) 1 
幸福 感 (T2) 3.63 (0.87) 0.34" 1 
幸福 感 (T3) 3.62 (0.83) 0.23” 0.30% 1 
BMI (T1) 23.53 (6.10) 0.10” 0.17" 0.13” 1 
BMI (T2) 23.80 (5.72) 0.10” 0.18" 0.14" 0.95” 1 
BMI (T3) 24.02 (5.58) 0.10" 0.15" 0.11" 0.89" 0.89" 1 


YE: M, 均值 ; SD, 标准 差 ;“,P < 0.01。 
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态 面板 ， 此 处 使 用 交叉 滞后 追踪 模型 来 分 析 两 个 
变量 之 间 的 纵向 关系 ,由 于 模型 中 默认 包含 自 回 
归 效 应 , 可 能 面临 由 动态 面板 引起 的 内 生性 问题 ; 
其 三 ， 相 互 关 系 ， 有 研究 指出 主观 幸福 感 和 BMI 
之 间 存 在 互相 预测 的 关系 (如 Fang et al., 2022), 
因此 本 研究 可 能 面临 由 相互 关系 引起 的 内 生性 问 
题 。 可 以 看 出 ,本 研究 可 能 会 面临 遗漏 变量 、 动 
态 面 板 和 相互 关系 这 三 种 内 生性 问题 来 源 。 
其 次 ， 确 认 分 析 模 型 ， 将 使 用 CLPM 进行 分 
析 ， 同 时 ， 考 虑 到 在 回归 分 析 中 可 能 会 有 一 些 影 
响 结果 变量 的 人 口 学 变量 同时 也 影响 解释 变量 ， 
需要 进行 控制 ( 温 忠 刨 ,2017)， 这 里 使 用 性 别 和 年 
龄 作为 协 变量 纳入 CLPM， 得 到 的 模型 记 为 
CLPM-cov。 此 外 , 我 们 使 用 IV 方法 来 处 理 内 生 
性 问题 ， 考 虑 到 有 效 的 AIV RARA, H MIV 相 
EF AIV 具有 一 些 不 可 替代 的 优点 ， 这 里 通过 在 
CLPM 中 纳入 MIIV 来 运用 IV 方法 ， 获 得 的 新 模 
型 记 为 MIIV-CLPM。 采 用 稳定 性 假设 ,不 同时 间 
点 上 同一 类 型 的 路 径 系数 设置 为 不 随时 间 变 化 ， 
因此 仅 针 对 最 后 一 个 时 间 点 的 方程 运用 MIV, 在 
T3 时 间 点 的 两 个 方程 中 结果 变量 分 别 为 z 和 yh , 
解释 变量 都 是 z Al yo LAR 10 和 11) HERE 
到 每 一 个 方程 中 的 解释 变量 都 是 两 个 因此 MIIV 
至 少 也 需要 两 个 (Bollen, 2012). Av CHES, 万 史 变 
量 往往 是 适当 的 IV (Gates et al., 2020)， 也 有 通过 
一 系列 模拟 研究 表明 在 CLPM 中 使 用 历史 变量 作 
为 MIIV 来 建 模 能 够 有 效应 对 内 生性 问题 ， 获 得 
参数 的 无 偏 估计 (Fang et al., under review)， 此 处 
将 使 用 历史 变量 作为 MIIV。 在 T3 时 间 点 的 方程 
中 解释 变量 的 历史 变量 是 zi y EE IV 模 
型 往往 都 是 基于 观测 变量 来 建 模 (Bollen，2018; 
Maydeu-Olivares et al., 2020)， 因 此 选用 两 个 历史 
变量 的 观测 值 ( 即 y, Al x, EN MITV, 它们 与 解释 
变量 (xz 和 yin ) 有 相关 ， 且 与 误差 项 ( dss M dys) 
无 相关 ， 满足 MIV 的 要 求 。 具 体 而 言 ， 参考 
Maydeu-Olivares 等 (2020) 的 IV 模型 构建 方法 , 在 
T3 时 间 点 的 方程 中 构建 解释 变量 (xm 和 yn) RT 
MIIV( yy 入 ) 的 回归 路 径 ( 记 为 z), MITV 是 满足 
外 生性 要 求 的 ， 这 样 获得 的 回归 预测 值 就 是 解释 
变量 的 外 生 部 分 , 将 其 作为 新 的 解释 变量 来 进行 
估计 ， 同 时 设置 解释 变量 误差 项 和 结果 变量 误差 
项 间 的 相关 ， 就 能 避免 内 生性 问题 ， 满 足 回归 分 
析 的 要 求 ( 见 图 3)。 所 有 分 析 通 过 R 软件 中 的 


图 3 在 T3 时 间 点 运用 MIV 


= 
出 


注 :z 为 解释 变量 ( 即 x A y ) 对 MIIV( 即 yp 和 x) 的 回 
系数 。 


lavvan 包 (Rosseel, 2012) 实 现 ( 见 网 络 版 附录 )。 

不 同 模型 的 拟 合 结 果 见 表 2。 当 拟 合 指数 满 
足以 下 条 件 : RMSEA 小 于 0.08, SRMR 小 于 0.08, 
CFI 大 于 0.90, TLI 大 于 0.90, 可 以 认为 模型 能 够 
较 好 地 拟 合 数据 ( 温 忠 鹿 等 , 2004)。 

然后 ， 对 估计 模型 的 结果 进行 比较 , 选 出 较 
适当 的 模型 作为 最 终 模型 。 

拟 合 表现 方面 , MITV-CLPM 的 拟 合 表现 显著 
地 优 于 CLPM (Ax? = 130.159, Adf = 7, p < 0.05; 
ARMSEA > 0.05) 和 CLPM-cov (Ay? = 152.545, 
Adf = 15, p < 0.05; ARMSEA > 0.05), CLPM-cov 的 
拟 合 表 现 好 于 原 模 型 ， 但 差 于 MIIV-CLPM， 这 表 
明 本 例 中 纳入 协 变量 能 够 一 定 程度 上 改善 模型 拟 
合 , 然而 相 比 之 下 , 使 用 IV 方法 来 建 模 仍然 是 更 
优秀 的 方案 。 使 用 历史 变量 作为 MIV 能 够 满足 
外 生性 前 提 ， 同时 MIIV-CLPM 良好 的 拟 合 表现 
也 验证 了 所 用 的 MIV 满足 外 生性 前 提 (Maydeu- 
Olivares et al., 2020)。 此 外 , MIIV 对 解释 变量 的 预 
测 作 用 都 是 显著 的 (ps < 0.01)。 如 果 将 MIIV- 
CLPM 中 MIIV 对 解释 变量 的 预测 效应 固定 为 零 ， 
可 以 获得 一 个 新 模型 MIIVCLPMiesuis，MIIV- 
CLPM 的 拟 合 表现 优 于 新 的 限制 模型 (x? = 119.018, 
df = 4, CFI = 0.972, RMSEA = 0.170), 说 明 MIV 与 
解释 变量 有 实质 性 关联 (Maydeu-Olivares et al., 
2020)， 即 MIIV 能 够 满足 关联 性 前 提 。 

参数 结果 方面 CLPM 中 变量 的 自 回归 效应 
都 是 显著 的 (ps < 0.001)， 这 说 明 主 观 幸福 感 和 
BMI 都 具有 较 高 的 跨 时 间 稳 定性 ; 在 控制 了 变量 
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表 2 不 同 模型 的 拟 合 表现 和 参数 估计 结果 
系数 / 拟 合 CLPM CLPM-cov MIIV-CLPM 
指标 Est. SE p Est. SE p Est. SE p 

Ba 0.71 0.09 <0.001 0.73 0.09 <0.001 0.59 0.09 <0.001 
Bo 0.70 0.09 <0.001 0.72 0.09 <0.001 0.69 0.09 <0.001 
By 0.97 0.01 <0.001 0.97 0.01 <0.001 1.00 0.02 <0.001 
By 0.97 0.01 <0.001 0.97 0.01 <0.001 0.94 0.02 <0.001 
Ya 0.00 0.12 0.898 0.00 0.12 0.810 0.03 0.24 0.291 
Va 0.00 0.12 0.898 0.00 0.12 0.810 0.04 0.24 0.291 
Yn 0.10 0.00 0.005 0.10 0.00 0.007 0.02 0.01 0.661 
Vya 0.09 0.00 0.005 0.09 0.00 0.007 0.02 0.01 0.661 
0, = = = —0.03 0.05 0.523 = = = 
6, = = = 0.10 0.39 0.003 = = = 
n, = = = ~0.03 0.00 0.548 — = = 
ny 一 — — 0.05 0.01 0.132 = = = 
Za = = = = 二 — 0.03 0.01 0.001 
Ze = = = = = = 0.21 0.01 0.001 
Ži = 一 = = = = 0.05 0.03 <0.001 
Z = — = = 二 = 0.37 0.03 <0.001 
好 130.371 152.757 0.212 

df 9 17 2 

CFI 0.971 0.967 1.000 

RMSEA 0.117 0.090 0.000 


HE: x, EWR; y, BMI, 


Est， 标 准 化 路 径 系 数 ， 稳 定性 假设 仅 针对 非 标 准 化 结果 ， 而 标准 化 结果 中 不 同时 间 点 的 系数 可 能 不 同 ; 


N 


SE, 标准 误 ; p， 显 著 性 水 平 ; 
Bu,x 的 自 回 归 效 应 ，p, ,y 的 
0, ,0,,， 
zu ,第 1 个 MIIV(”) 对 x 的 预测 作用 ; za, 


回归 效应 ; Vay 对 x 的 滞后 影响 效应 ;，y, ,x 对 yy 的 灌 后 影响 效应 ; 
性 别 对 x 或 y 的 预测 作用 ; w,，w, ,年 龄 对 x 或 y 的 预测 作用 ; 
第 2 个 MITV( y ) 对 x 的 预测 作用 ; 


zy ,第 1 个 MIV x, et y 的 预测 作用 ; z,, ,第 2 个 MIV y ) 对 yy 的 预测 作用 。 


本 身上 一 时 间 点 的 影响 之 后 ， 两 个 变量 之 间 存 在 


也 都 是 显著 的 ， 但 是 交叉 滞后 效应 都 不 显著 ， 说 


单 向 的 负 向 交叉 滞后 效应 (y,，= 0.09~0.10, p < 
0.01), 表明 幸福 感 能 够 负 问 影响 下 一 时 间 点 的 
BMI。 使 用 了 人 口 学 变量 作为 协 变 量 的 CLPM-cov 
所 得 到 的 结果 与 原 模型 基本 一 致 , 但 是 其 中 一 个 
协 变量 (年 龄 ) 的 作用 并 不 显著 , 在 实证 中 要 找到 
对 研究 变量 有 实质 性 影响 的 协 变量 是 不 容易 的 ， 
能 获得 协 变量 的 有 效 测量 来 建 模 更 是 对 研究 设计 
提出 了 较 高 的 要 求 , 通常 一 些 潜在 的 遗漏 变量 的 
完整 测量 是 很 难 获得 的 , 例如 家 庭 净 收入 数据 在 
此 处 使 用 的 追踪 调查 中 缺失 高 达 66% (T1), 67% 
(T2，T3)。 在 MIIV-CLPM 中 ,变量 的 自 回归 效应 


明 幸 福 感 和 BMI 之 间 并 不 存在 相互 预测 关系 。 

可 以 看 出 , MIIV-CLPM 的 统计 表现 优秀 ， 显 
著 好 于 其 他 模型 此外, CLPM 忽视 了 内 生性 问题 ， 
CLPM-cov 纳入 了 一 些 协 变量 但 无 法 确切 地 排除 
其 他 遗漏 变量 的 可 能 ， 且 还 可 能 面临 动态 面板 和 
相互 关系 所 引起 的 内 生性 问题 ， 而 MIIV-CLPM 
通过 运用 IV 方法 从 根本 上 对 内 生性 问题 进行 了 
处 理 ， 其 所 得 到 的 估计 结果 是 更 加 可 信 的 。 因 此 ， 
此 处 选择 MIIV-CLPM 作为 最 终 模型 结果 表明 
主观 幸福 感 和 BMI 之 间 不 存在 影响 关系 。 

综 上 , 在 追踪 研究 中 可 能 会 同时 存在 多 种 内 
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生性 问题 来 源 , 不 同 的 来 源 视 乎 模型 而 定 ， 在 
CLPM 中 可 能 存在 遗漏 变量 、 动 态 面 板 和 相互 关 
系 ,其 他 包含 交叉 滞后 结构 的 模型 中 (如 RI-CLPM 
和 LCS 等 ) 同 样 可 能 面临 这 些 内 生性 问题 来 源 ， 
在 不 包含 自 回 归 路 径 的 追踪 模型 (如 LCM) 中 不 存 
在 动态 面板 这 一 内 生性 问题 来 源 ， 可 能 存在 遗漏 
变量 ,是否 存 在 相互 关系 则 需要 结合 所 研究 变量 
的 理论 背景 和 具体 模型 结构 来 作 判 断 。 在 分 析 变 
量 间 的 纵向 预测 关系 时 ， 内 生性 问题 的 存在 可 能 
会 导致 估计 结果 出 现 偏差 。 在 本 例 中 , CLPM 由 于 
内 生性 问题 的 影响 得 到 了 原本 并 不 存在 的 效应 ， 
当 采 用 不 同 的 研究 变量 或 其 他 的 追踪 模型 进行 分 
析 时 ,这 种 情况 是 否 仍 会 出 现 还 有 待 未 来 进一步 


数据 来 得 到 可 靠 的 参数 估计 结 

综 上 ,实证 研究 者 应 当 意 识 到 追踪 研究 中 内 
生性 问题 的 存在 ， 并 采取 适当 的 应 对 措施 ， 建 议 
在 追踪 模型 中 使 用 历史 变量 作为 MIV 来 处 理 内 
生性 问题 ， 进 而 揭示 变量 间 的 真实 关系 。 
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5 结论 与 建议 


基于 观测 数据 的 追踪 研究 被 广泛 地 用 于 变量 
之 间 因 果 关 系 的 分 析 ， 然 而 其 中 的 内 生性 问题 却 
未 得 到 应 有 的 关注 ， 这 可 能 会 导致 参数 估计 偏差 ， 
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中 的 内 生性 问题 , 厘清 了 不 同 的 内 生性 问题 来 源 ， 
以 近年 来 广 受 关注 的 追踪 模型 CLPM 为 例 ， 展 示 
了 内 生性 问题 的 影响 ,率先 将 IV 方法 引入 CLPM 
中 应 对 内 生性 问题 , 证 实 了 其 可 行 性 和 有 效 性 ， 
为 IV 方法 在 其 他 追踪 模型 中 的 推广 应 用 葛 定 了 
基础 。 

首先 , 追踪 研究 中 可 能 存在 多 种 不 同 的 内 生 
性 问题 来 源 ， 视 乎 模型 而 定 , CLPM 中 可 能 面临 的 
来 源 主要 包括 遗漏 变量 、 动 态 面板 和 相互 关系 ; 

其 次 , 内 生性 问题 会 导致 追踪 分 析 的 参数 估 
计 出 现 偏差 , 例如 本 文 的 实例 中 内 生性 问题 令 
CLPM 在 估计 交叉 滞后 系数 时 得 到 原本 并 不 存在 
的 效应 ; 

最 后 , IV 方法 是 应 对 追踪 研究 中 内 生性 问题 
的 可 行 方案 , 尤其 是 MIV 能 够 充分 利用 已 有 的 
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The endogeneity issue in longitudinal research: Sources and solutions 


FANG Junyan', WEN Zhonglin? 
( School of Leisure Sports and Management, Guangzhou Sport University, Guangzhou 510500, China) 
Ê School of Psychology/Center for Studies of Psychological Application, 
South China Normal University, Guangzhou 510631, China) 


Abstract: The endogeneity issue is often induced by limited causes in cross-sectional studies, while 
multiple sources of endogeneity may exist in longitudinal research. Bivariate longitudinal studies have been 
widely utilized in the exploration of causation in behavioral and psychological sciences, while the 
endogeneity issue in longitudinal research has received little attention, which may impair estimation 
accuracy. In this study, we elaborate on the main sources of endogeneity in longitudinal research, including 
omitted variables, self-selection, sample selection, measurement error in the predictors, dynamic panel, and 
reciprocal relation. Taking the Cross-lagged panel model as an example, the empirical analysis reveals the 
impact of endogeneity. We also discuss the feasibility and rationality of applying instrumental variables in 
the longitudinal model to deal with the endogeneity. The purposes are to draw more attention to the 
endogeneity issue and to promote better use of longitudinal models in causal analysis. 


Keywords: endogeneity, longitudinal research, cross-lagged panel model, instrumental variables 


附录 : RBA 


library(lavaan) 

data<-read.table(file="_11.DAT",header=F) 
colnames(data)<-c("id","x1","x2","x3","y1L","y2","y3") 

model <-' 

etaxl =~ 1*x1; etax2 =~ 1*x2; etax3 =~ 1*x3; etayl =~ 1*y1; etay2 =~ 1*y2; etay3 =~ 1*y3 
etax2 ~ al*etax1; etax3 ~ al*etax2; etay2 ~ a2*etayl; etay3 ~ a2*etay2 
etay2 ~ cl*etax1; etay3 ~ cl*etax2; etax2 ~ c2*etayl; etax3 ~ c2*etay2 
xl ~~ varxx*x1; x2 ~~ varxx*x2; x3 ~~ varxx*x3 

yl ~~ varyy*yl; y2 ~~ varyy*y2; y3 ~~ varyy*y3 

etax2 ~~ varx*etax2; etax3 ~~ varx*etax3;etay2 ~~ vary*etay2 

etay3 ~~ vary*etay3;etaxl ~~ varx1*etax1; etayl ~~ vary1*etay1 

etaxl ~~ cov1*etayl;etax2 ~~ cove*etay2; etax3 ~~ cove*etay3 

xl ~ 0*1; x2 ~ 0*1; x3 ~ 0*1; yl ~ 0*1; y2 ~ 0*1; y3 ~ 0*1 

etaxl ~ 1; etax2 ~ 1; etax3 ~ 1; etayl ~ 1; etay2 ~ 1; etay3 ~ 1 

etax2 ~ zx*x1;etax2 ~ zx*yl;etay2 ~ zy*xl;etay2 ~ zy*yl 

xl ~~ yl; etax2 ~~ etax3;etax2 ~~ etay3;etay2 ~~ etax3;etay2 ~~ etay3' 
fit <- sem(model, data = data) 

summary(fit, standardized = TRUE) 


